众所周知,大数据挖掘是数据科学的重要任务,因为它可以提供有用的观察结果和隐藏在给定的大数据集中的新知识。基于接近性的数据分析尤其在许多现实生活中使用。在这样的分析中,通常采用了与K最近的邻居的距离,因此其主瓶颈来自数据检索。为提高这些分析的效率做出了许多努力。但是,他们仍然会产生巨大的成本,因为它们基本上需要许多数据访问。为了避免此问题,我们提出了一种机器学习技术,该技术可以快速准确地估算给定查询的K-NN距离(即与K最近的邻居的距离)。我们训练完全连接的神经网络模型,并利用枢轴来实现准确的估计。我们的模型旨在具有有用的优势:它一次不距离K-NN,其推理时间为O(1)(未产生数据访问),但保持高精度。我们对实际数据集的实验结果和案例研究证明了解决方案的效率和有效性。
translated by 谷歌翻译